発表の概要
シミュレーション
- ノード数20のランダムネットワーク3つを直列にブリッジでつないでネットワークを作成
- ネットワーク上に距離1~6までのゴールを一つずつ設定
- 最短距離の2乗=報酬とする
- Goal nodes = {2, 6, 23, 31, 42, 43}
- {Distance: Reward} = {1:1, 2:4, 3:9, 4:16, 5:25, 6:36}
- ネットワーク上を強化学習(chaining: Enquist et al. 2016)で探索
探索はQ学習xソフトマックス選択に似たモデル(chaining: c.f. Enquist et al., 2016)
* 状態行動価値Qの更新
\(Q_{S\rightarrow B,t} = (1 - \alpha_Q ) \cdot Q_{S\rightarrow B,t-1} + \alpha_Q \cdot W_{S', t-1}\)
S: 移動前の状態、S’: 移動後の状態、B:行動 $_Q $: 学習率、W: 状態価値≒報酬
\(W_{S,t} = (1 - \alpha_W ) \cdot W_{S,t-1} + \alpha_W \cdot W_{S', t-1}\)
S: 移動前の状態、S’: 移動後の状態、$_W $: 学習率
\(Pr(S \rightarrow B,t) = exp(Q_{S \rightarrow B,t-1}) / \Sigma_{B'} exp(Q_{S \rightarrow B',t-1})\)
※シミュレーション開始時はゴール以外の価値は全て0 ※学習率(初期値)\(\alpha_Q = \alpha_W = 0.9\)
※逆温度(初期値)\(\beta= 1.0\):値が小さいほど探索を行う
個人学習のみ
- 1万人のエージェントが独立に個人学習のみを4万ラウンド行った
Reward
推移

報酬分布
R=1

R=10

R=100

R=400

R=5000

R=20000

R=40000

教育あり
- 1世代あたりのエージェント数:10000
- 1世代あたりのラウンド数(R):10,100,400,5000, 20000
- 世代数(G):100 or 定常状態まで
- 教育フェイズ(T):1世代あたりラウンド数の10〜90%
Reward
世代の推移
100世代まで
R=10

R=100

R=400

R=5000

R=20000

定常状態まで
R=10

R=100

R=400

R=5000

R=20000
- 2万ラウンドx100世代
- これは200世代で十分なので再掲

最終世代
100世代目
R=10

R=100

R=400

R=5000

R=20000

定常状態
R=10

R=100

R=400

R=5000

R=20000

100世代目報酬分布
R=10
T=1

T=2

T=3

T=4

T=5

T=6

T=7

T=8

T=9

R=100
T=10

T=20

T=30

T=40

T=50

T=60

T=70

T=80

T=90

R=400
T=40

T=80

T=120

T=160

T=200

T=240

T=280

T=320

T=360

R=5000
T=500

T=1000

T=1500

T=2000

T=2500

T=3000

T=3500

T=4000

T=4500

R=20000
T=2000

T=4000

T=6000

T=8000

T=10000

T=12000

T=14000

T=16000

T=18000

定常状態報酬分布
R=10
T=1

T=2

T=3

T=4

T=5

T=6

T=7

T=8

T=9

R=100
T=10

T=20

T=30

T=40

T=50

T=60

T=70

T=80

T=90

R=400
T=40

T=80

T=120

T=160

T=200

T=240

T=280

T=320

T=360

R=5000
T=500

T=1000

T=1500

T=2000

T=2500

T=3000

T=3500

T=4000

T=4500

R=20000
T=2000

T=4000

T=6000

T=8000

T=10000

T=12000

T=14000

T=16000

T=18000

無限寿命x教育
- 1世代あたりのエージェント数:10000
- 1世代あたりのラウンド数(R):10,100,400,5000, 20000
- 世代数(G):100 or 定常状態まで
- 教育フェイズ(T):1世代あたりラウンド数の10〜90%
Reward
世代の推移
100世代まで
R=10

R=100

R=400

R=5000

R=20000

定常状態まで
R=10

R=100

R=400

R=5000

R=20000
- 2万ラウンドx100世代
- これは200世代で十分なので再掲

最終世代
100世代目
R=10

R=100

R=400

R=5000

R=20000

定常状態
R=10

R=100

R=400

R=5000

R=20000
